智能论文笔记

Explainable vision transformer enabled convolutional neural network for plant disease identification: PlantXViT

Poornima Singh Thakur , Pritee Khanna , Tanuja Sheorey , Aparajita Ojha

分类：计算机视觉

2022-07-16

植物疾病是全球作物损失的主要原因，对世界经济产生了影响。为了解决这些问题，智能农业解决方案正在发展，将物联网和机器学习结合起来，以进行早期疾病检测和控制。许多这样的系统使用基于视觉的机器学习方法进行实时疾病检测和诊断。随着深度学习技术的发展，已经出现了新方法，这些方法采用卷积神经网络进行植物性疾病检测和鉴定。基于视觉的深度学习的另一个趋势是使用视觉变压器，事实证明，这些变压器是分类和其他问题的强大模型。但是，很少研究视力变压器以进行植物病理应用。在这项研究中，为植物性疾病鉴定提出了一个启用视觉变压器的卷积神经网络模型。提出的模型将传统卷积神经网络的能力与视觉变压器有效地识别出多种农作物的大量植物疾病。拟议的模型具有轻巧的结构，只有80万个可训练的参数，这使其适合基于物联网的智能农业服务。 PlantXvit的性能在五个公开可用的数据集上进行了评估。拟议的PlantXvit网络在所有五个数据集上的性能要比五种最先进的方法更好。即使在挑战性的背景条件下，识别植物性疾病的平均准确性分别超过了苹果，玉米和稻米数据集的93.55％，92.59％和98.33％。使用梯度加权的类激活图和局部可解释的模型不可思议的解释来评估所提出模型的解释性效率。

translated by 谷歌翻译

Too Brittle To Touch: Comparing the Stability of Quantization and Distillation Towards Developing Lightweight Low-Resource MT Models

Harshita Diddee , Sandipan Dandapat , Monojit Choudhury , Tanuja Ganu , Kalika Bali

分类：自然语言处理

2022-10-27

Leveraging shared learning through Massively Multilingual Models, state-of-the-art machine translation models are often able to adapt to the paucity of data for low-resource languages. However, this performance comes at the cost of significantly bloated models which are not practically deployable. Knowledge Distillation is one popular technique to develop competitive, lightweight models: In this work, we first evaluate its use to compress MT models focusing on languages with extremely limited training data. Through our analysis across 8 languages, we find that the variance in the performance of the distilled models due to their dependence on priors including the amount of synthetic data used for distillation, the student architecture, training hyperparameters and confidence of the teacher models, makes distillation a brittle compression mechanism. To mitigate this, we explore the use of post-training quantization for the compression of these models. Here, we find that while distillation provides gains across some low-resource languages, quantization provides more consistent performance trends for the entire range of languages, especially the lowest-resource languages in our target set.

translated by 谷歌翻译

Towards Optimizing OCR for Accessibility

Peya Mowar , Tanuja Ganu , Saikat Guha

分类：计算机视觉

2022-06-21

诸如结构，重点和图标之类的视觉提示在有效的信息中觅食，并带来令人愉悦的阅读体验。自目前的OCR和文本到语音软件以来，盲人，低视觉和其他印刷的人都错过了这些线索，从而忽略了它们，从而带来了乏味的阅读体验。我们确定四个语义目标，以获得愉快的聆听体验，并确定有助于朝着这些目标取得进步的句法视觉提示。从经验上讲，我们发现即使以听觉形式保存一个或两个视觉提示可以显着增强聆听印刷内容的体验。

translated by 谷歌翻译

Document Navigability: A Need for Print-Impaired

Anukriti Kumar , Tanuja Ganu , Saikat Guha

分类：计算机视觉

2022-06-21

对于盲人，低视觉和其他印刷（BLV）个人而言，印刷文档仍然是一个挑战。在本文中，我们关注（内部引用，脚注，图形，表格和方程式）的（内部参考）的特定问题。虽然视力用户可以翻转参考内容并在几秒钟内翻转，但BLV个人所依赖的线性音频叙事使这些参考文献非常困难。我们提出了一种基于视觉的技术，以找到引用的内容，并提取（在后续工作中）将内容汇总到音频叙事中所需的元数据。我们将技术应用于科学文档中的引用，并发现它在出生数字和扫描文件上都很好地效果。

translated by 谷歌翻译

Broken News: Making Newspapers Accessible to Print-Impaired

Vishal Agarwal , Tanuja Ganu , Saikat Guha

分类：计算机视觉

2022-06-21

访问每日新闻内容对于有印刷损失的人来说仍然是一个巨大的挑战，包括盲人和低视觉，由于印刷内容的不透明性和在线来源的阻碍。在本文中，我们将印刷报纸数字化的方法介绍为HTML等可访问的文件格式。我们使用实例分割和检测框架进行报纸布局分析，然后使用OCR来识别文本元素，例如标题和文章文本。此外，我们为Mask-RCNN框架提出了EDGEMASK损耗函数，以改善分割掩码边界，从而改善下游OCR任务的准确性。从经验上讲，我们表明我们提出的损失函数将新闻文章文本的单词错误率（WER）降低了32.5％。

translated by 谷歌翻译